最近的研究揭示了NLP数据和模型中的不良偏见。但是,这些努力的重点是西方的社会差异,并且无法直接携带其他地质文化背景。在本文中,我们关注印度背景下的NLP公平。我们首先简要说明印度的社会差异斧头。我们为印度背景下的公平评估建立资源,并利用它们来证明沿着某些轴的预测偏见。然后,我们深入研究了地区和宗教的社会刻板印象,证明了其在Corpora&Models中的普遍性。最后,我们概述了一个整体研究议程,以重新定义印度背景的NLP公平研究,考虑印度社会背景,弥合能力,资源和适应印度文化价值的技术差距。尽管我们在这里专注于“印度”,但可以在其他地理文化背景下进行重新连接化。
translated by 谷歌翻译
预计在现实世界中部署的NLU系统将定期更新或对随着时间的推移积累的新培训示例的基础神经网络进行重新更新。在我们的工作中,我们专注于多语言环境,在该环境中,我们希望在该设置中进一步捕获有关上述模型已经接受过培训的NLU任务的新培训数据的多语言模型。我们表明,在某些条件下,天真地更新多语言模型可能会导致语言子集的性能损失,尽管汇总性能指标显示出改进。我们在属于三个任务系列(令牌级,句子级别和SEQ2SEQ)的四个任务上建立了这种现象,并发现基线远非手头设置的理想选择。然后,我们基于最近进步的参数有效填充,以开发新颖的填充管道,使我们能够共同最大程度地减少灾难性的遗忘,同时鼓励积极的跨语言转移,从而改善不同语言的增长,同时减少这种设置中损失的损失。
translated by 谷歌翻译
虽然最近关于多语种语言模型的工作已经证明了他们对下游任务的交叉零射击传输的能力,但社区缺乏符合语言之间的共享属性,可以实现这种转移。涉及成对的自然语言的分析通常是不确定的,并且矛盾以来,许多语言方面同时不同。在本文中,我们进行大规模的实证研究,通过测量四种不同的自然语言和通过修改脚本,单词顺序和语法等方面构造的零拍摄传递来隔离各种语言特性的影响。在其他事情之外,我们的实验表明,当语言的单词顺序不同时,缺乏子字重叠显着影响零拍摄传输,并且在语言之间的传输性能和Word嵌入对准之间存在强烈相关性(例如,r = 0.94关于NLI的任务)。我们的结果呼吁专注于在明确改进语言之间的嵌入对齐而不是依赖于隐含的出现。
translated by 谷歌翻译
Neural transducer is now the most popular end-to-end model for speech recognition, due to its naturally streaming ability. However, it is challenging to adapt it with text-only data. Factorized neural transducer (FNT) model was proposed to mitigate this problem. The improved adaptation ability of FNT on text-only adaptation data came at the cost of lowered accuracy compared to the standard neural transducer model. We propose several methods to improve the performance of the FNT model. They are: adding CTC criterion during training, adding KL divergence loss during adaptation, using a pre-trained language model to seed the vocabulary predictor, and an efficient adaptation approach by interpolating the vocabulary predictor with the n-gram language model. A combination of these approaches results in a relative word-error-rate reduction of 9.48\% from the standard FNT model. Furthermore, n-gram interpolation with the vocabulary predictor improves the adaptation speed hugely with satisfactory adaptation performance.
translated by 谷歌翻译
随着丰富的视觉表示和预训练的语言模型的出现,随着时间的推移,视频字幕持续不断改进。尽管性能有所提高,但视频字幕模型还是容易发生幻觉的。幻觉是指与原始材料分离的高度病理描述的产生。在视频字幕中,有两种幻觉:物体和动作幻觉。我们没有努力学习视频的更好代表,而是在这项工作中研究了幻觉问题的基本来源。我们确定了三个主要因素:(i)从预训练模型中提取的视觉特征不足,(ii)多模式融合过程中源和目标环境的影响不当,以及(iii)训练策略中的暴露偏见。为了减轻这些问题,我们提出了两种强大的解决方案:(a)在提取的视觉特征的基础上引入了在多标签设置中训练的辅助头,以及(b)添加上下文门,在融合过程中动态选择特征。视频字幕的标准评估指标衡量与地面真相标题的相似性,并且不能充分捕获对象和动作相关性。为此,我们提出了一个新的指标Coaha(标题对象和动作幻觉评估),该指标评估了幻觉的程度。我们的方法可以在MSR-Video到文本(MSR-VTT)和Microsoft研究视频描述语料库(MSVD)数据集上实现最先进的性能,尤其是通过大量的苹果酒得分。
translated by 谷歌翻译
固有图像分解(IID)是一个不受限制的问题。因此,传统方法使用手工制作的先验来限制问题。但是,在应对复杂场景时,这些约束受到限制。基于深度学习的方法通过数据隐含地学习了这些约束,但是它们通常会遭受数据集偏见的困扰(由于无法包括所有可能的成像条件)。在本文中,提出了两者的组合。利用语义和不变特征(例如语义和不变特征)以获得语义和物理上合理的反射率转换。这些过渡用于引导具有隐式同质性约束的进行性CNN,以分解反射率和阴影图。进行了一项消融研究,表明拟议的先验和进行性CNN的使用增加了IID的性能。我们提出的数据集和标准现实世界IIW数据集的最新性能都显示了提出的方法的有效性。代码可在https://github.com/morpheus3000/signet上提供
translated by 谷歌翻译
随着图像识别中深度学习模型的快速发展和使用的增加,安全成为其在安全至关重要系统中的部署的主要关注点。由于深度学习模型的准确性和鲁棒性主要归因于训练样本的纯度,因此,深度学习体系结构通常容易受到对抗性攻击的影响。对抗性攻击通常是通过对正常图像的微妙扰动而获得的,正常图像对人类最不可感知,但可能会严重混淆最新的机器学习模型。我们提出了一个名为Apudae的框架,利用DeNoing AutoCoders(DAES)通过以自适应方式使用这些样品来纯化这些样本,从而提高了已攻击目标分类器网络的分类准确性。我们还展示了如何自适应地使用DAE,而不是直接使用它们,而是进一步提高分类精度,并且更强大,可以设计自适应攻击以欺骗它们。我们在MNIST,CIFAR-10,Imagenet数据集上展示了我们的结果,并展示了我们的框架(Apudae)如何在净化对手方面提供可比性和在大多数情况下的基线方法。我们还设计了专门设计的自适应攻击,以攻击我们的净化模型,并展示我们的防御方式如何强大。
translated by 谷歌翻译
深度学习(DL)系统的安全性是一个极为重要的研究领域,因为它们正在部署在多个应用程序中,因为它们不断改善,以解决具有挑战性的任务。尽管有压倒性的承诺,但深度学习系统容易受到制作的对抗性例子的影响,这可能是人眼无法察觉的,但可能会导致模型错误分类。对基于整体技术的对抗性扰动的保护已被证明很容易受到更强大的对手的影响,或者证明缺乏端到端评估。在本文中,我们试图开发一种新的基于整体的解决方案,该解决方案构建具有不同决策边界的防御者模型相对于原始模型。通过(1)通过一种称为拆分和剃须的方法转换输入的分类器的合奏,以及(2)通过一种称为对比度功能的方法限制重要特征,显示出相对于相对于不同的梯度对抗性攻击,这减少了将对抗性示例从原始示例转移到针对同一类的防御者模型的机会。我们使用标准图像分类数据集(即MNIST,CIFAR-10和CIFAR-100)进行了广泛的实验,以实现最新的对抗攻击,以证明基于合奏的防御的鲁棒性。我们还在存在更强大的对手的情况下评估稳健性,该对手同时靶向合奏中的所有模型。已经提供了整体假阳性和误报的结果,以估计提出的方法的总体性能。
translated by 谷歌翻译
从无调点云中重建3D非紧密网格是计算机视觉和计算机图形中未探索的区域。在这个项目中,我们试图通过扩展纸张“ Shape As Points”中呈现的基于学习的水密网状重建管道来解决此问题。我们方法的核心是将问题作为语义分割问题提出,该问题识别3D体积中的区域,其中网格表面位于所在的区域并从检测到的区域提取表面。与基线技术相比,我们的方法取得了令人信服的结果。
translated by 谷歌翻译
现代生成模型大致分为两个主要类别:(1)可以产生高质量随机样品但无法估算新数据点的确切密度的模型,以及(2)提供精确密度估计的模型,以样本为代价潜在空间的质量和紧凑性。在这项工作中,我们提出了LED,这是一种与gan密切相关的新生成模型,不仅允许有效采样,而且允许有效的密度估计。通过最大程度地提高对数可能的歧视器输出,我们得出了一个替代对抗优化目标,鼓励生成的数据多样性。这种表述提供了对几种流行生成模型之间关系的见解。此外,我们构建了一个基于流的生成器,该发电机可以计算生成样品的精确概率,同时允许低维度变量作为输入。我们在各种数据集上的实验结果表明,我们的密度估计器会产生准确的估计值,同时保留了生成的样品质量良好。
translated by 谷歌翻译